丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
風控與安全 正文
發(fā)私信給周蕾
發(fā)送

0

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

導(dǎo)語:聯(lián)邦學(xué)習(xí)的邊界,是性能嗎?是安全嗎?

近日,雷鋒網(wǎng)《AI金融評論》聯(lián)合香港人工智能與機器人學(xué)會(HKSAIR),邀請京東數(shù)字科技AI實驗室首席科學(xué)家薄列峰做客公開課,以《京東數(shù)科的聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局》為題進行分享。

除了分享橫向和縱向聯(lián)邦學(xué)習(xí)以外,他也通過案例形式給出了京東數(shù)科對聯(lián)邦學(xué)習(xí)性能與安全性方面的研究成果,以及區(qū)塊鏈和聯(lián)邦學(xué)習(xí)的融合討論。

以下為薄列峰的課程分享全程回顧,雷鋒網(wǎng)AI金融評論做了不影響原意的編輯:

隨著互聯(lián)網(wǎng)發(fā)展,數(shù)據(jù)安全管理越發(fā)嚴格,對數(shù)據(jù)管理的關(guān)注也越來越全面化。怎么在保護數(shù)據(jù)隱私的情況下,還能做一些好的機器學(xué)習(xí)模型,應(yīng)用到各種各樣的問題?這就變得越來越重要,需要從集中式機器學(xué)習(xí)過渡到分布式機器學(xué)習(xí)。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

而2006年開始掀起的深度學(xué)習(xí)熱潮,更把AI和機器學(xué)習(xí)模型對數(shù)據(jù)的需求推向了頂峰。

什么是聯(lián)邦學(xué)習(xí)?就是在滿足數(shù)據(jù)隱私安全和監(jiān)管要求的前提下,讓人工智能系統(tǒng)更加高效準確地共同使用各自數(shù)據(jù)的機器學(xué)習(xí)框架。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

應(yīng)用方面,舉一個簡單的例子:各企業(yè)或機構(gòu)大家都出不同的數(shù)據(jù),相互進行模型學(xué)習(xí),又不會看到對方的數(shù)據(jù)。數(shù)據(jù)還可能分布在不同的國家,各國數(shù)據(jù)監(jiān)管政策有所不同,也可以把分布在各國數(shù)據(jù)高效利用、訓(xùn)練模型,不存在數(shù)據(jù)上的交換。

兩個典型的聯(lián)邦學(xué)習(xí)算法,分別是橫向聯(lián)邦學(xué)習(xí)和縱向聯(lián)邦學(xué)習(xí),橫軸表示特征維度,豎軸表示用戶維度。

橫向聯(lián)邦學(xué)習(xí),看兩方的數(shù)據(jù)和標簽,用戶重合度非常低,特征重合度比較大。這里顯示的是用戶無重合的極端情況,實際情況中它可能僅僅重合90%用戶特征,5%用戶重合,到時進行對齊即可。

縱向聯(lián)邦學(xué)習(xí),兩方用戶重合較多,可對用戶的部分對齊。A、B各擁有用戶一部分數(shù)據(jù),可能都會有用戶的一部分標注,縱向聯(lián)邦學(xué)習(xí)也能去處理。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

對計算機視覺、自然語言語音識別等領(lǐng)域而言,2006年深度學(xué)習(xí)(的出現(xiàn))是非常大的推動。大家熟悉的語音識別、語音合成、人臉識別等應(yīng)用,都是大量深度學(xué)習(xí)模型在背后發(fā)揮作用。

深度學(xué)習(xí)、梯度下降與橫向聯(lián)邦學(xué)習(xí)

  • 三種典型深度學(xué)習(xí)

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

首先是深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)在語音識別誤差上有30%的簡化,性能有非常大的提升。

后來是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN),它的訓(xùn)練誤差相對于其他方法降低了十個百分點左右,在計算機視覺領(lǐng)域有著非常廣泛的應(yīng)用。

遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Networks,RNN)在自然語言處理領(lǐng)域是非?;A(chǔ)性的工具。

優(yōu)化神經(jīng)網(wǎng)絡(luò)的典型方法:不管神經(jīng)網(wǎng)絡(luò)有多復(fù)雜,大家實際上都能把它寫成一個f,一個輸入加一個參數(shù)。常用方法之一是隨機梯度下降。

大家都知道,優(yōu)化最基本的是梯度下降,就是精確計算梯度,再對參數(shù)的方向和模型參數(shù)用梯度做下降。如果我的樣本量非常大,有100萬、1000萬,做梯度下降計算代價非常高。

實際運用中,我們可以隨機提出采樣。極端情況下,可以只采用一個樣本去估計梯度,比如包含50-100個樣本的小樣本集,它的梯度估計不準確,但計算代價非常低,這樣能有效優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù)。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

如圖,紅線是隨機梯度下降的結(jié)果,梯度估計不準所以路線較曲折。藍線是典型的梯度下降結(jié)果,估計比較精確所以不會拐彎的路線。但最終都會去到最優(yōu)解。雖然紅色路線比較長,但它走每一步的代價明顯更低,相對于隨機梯度而言,整體效率還是更高。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

這是典型的橫向聯(lián)邦學(xué)習(xí)框架。設(shè)置里下面是客戶端(client1,2,3,……,t)。藍色云是服務(wù)端(Server)。橫向聯(lián)邦學(xué)習(xí)的設(shè)置是數(shù)據(jù)的不同樣本存在不同用戶端,這實際上是對傳統(tǒng)分布式框架的改善。

首先每個客戶端訓(xùn)練模型,產(chǎn)生參數(shù)w1、w2、w3……wt,參數(shù)傳到云端,服務(wù)端對模型做平均,得到 w-。服務(wù)端做完模型平均之后,每個客戶端再下載模型w-,再對模型做幾輪梯度下降或優(yōu)化,再將模型上傳到服務(wù)端,循環(huán)往復(fù),形成這樣一個迭代的過程。

在這個過程中,客戶端的數(shù)據(jù)并沒有向服務(wù)端傳遞,傳遞的只是模型的參數(shù)w,保護了客戶端數(shù)據(jù)的隱私。

它與傳統(tǒng)分布式學(xué)習(xí)的不同之處在于,后者在此傳遞的是梯度;在聯(lián)邦學(xué)習(xí)里,客戶端向服務(wù)端傳的是模型的參數(shù)。實際上現(xiàn)在也有證明表示,梯度信息其實也能泄露不少數(shù)據(jù)信息,而模型參數(shù)經(jīng)過幾輪梯度下降后,對數(shù)據(jù)的保護會做得更好。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

如圖,聯(lián)邦A(yù)verage(FedAvg)和 聯(lián)邦SGD,前者實際使用代數(shù)明顯更少,就可以收斂,SGD需要的代數(shù)明顯更多。

在很多setting里,在分布式學(xué)習(xí)里,通信代價通常會是瓶頸,這個差異意味著FedAvg能有效降低這一代價,提升了訓(xùn)練效率,同時也加強了對數(shù)據(jù)隱私的保護。

在這個設(shè)置下,實際上服務(wù)端還是知道我的模型參數(shù)的,有沒有可能進一步對我的模型參數(shù)加密和保護?其實不需要加密也有相當?shù)陌踩?,但加密能對攻擊、對服?wù)端、對可能的數(shù)據(jù)欺詐有更好的防護。

  • 同態(tài)加密

簡單來講,這是一個密碼學(xué)的算法,主要操作是生成公鑰和私鑰,加密算子,應(yīng)用到明文,產(chǎn)生密文;用私鑰對密文解密,產(chǎn)生明文。同態(tài)加密的特點之一就是,兩個數(shù)m1和m2的和同態(tài)加密,等于m1的同態(tài)加密加m2的同臺加密;m和一個常數(shù)相乘的同態(tài)加密,等于對這個樣本同態(tài)加密,再乘以常數(shù)。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

橫向聯(lián)盟學(xué)習(xí)+同態(tài)加密:和剛才的情況類似,傳遞參數(shù)過程中,可對w1……wt同態(tài)加密,然后在服務(wù)端對同態(tài)加密域做平均,以得到模型參數(shù)。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

在這一設(shè)置下,服務(wù)端不知道私鑰,但客戶端知道。服務(wù)端實際上不能對w-解密,甚至連模型參數(shù)也不知道,它只知道同態(tài)加密域,但沒有私鑰就沒法解密。客戶端下載參數(shù),用自己的私鑰解密,再更新自己的模型——因此同態(tài)加密也提升了數(shù)據(jù)安全性。

橫向聯(lián)邦學(xué)習(xí)之人臉識別應(yīng)用:人臉識別有多場景的數(shù)據(jù)收集,比如打卡的門禁數(shù)據(jù)、多角度監(jiān)控、證件類數(shù)據(jù)等。甚至還有一些海外業(yè)務(wù),海外數(shù)據(jù)不能傳遞到國內(nèi),聯(lián)邦學(xué)習(xí)就能解決這個問題,有效提升在人證場景或配合式場景下的通過率。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

Q:各方的特征怎么對齊?

在橫向聯(lián)邦學(xué)習(xí),大家的特征集是一樣的。舉個例子,a方和b方都是人臉數(shù)據(jù),那么模型取的就是人臉數(shù)據(jù),可以規(guī)范化到一個圖像標準,比如說128×128的頭像,這樣輸入x就自然對齊了。

除了同態(tài)加密,另一個在橫向聯(lián)邦學(xué)習(xí)應(yīng)用較多的是差分方法,思路是在分布式學(xué)習(xí)的時候傳遞梯度,同時對梯度加噪,以噪聲方式保證梯度安全性。

縱向聯(lián)邦學(xué)習(xí)

假設(shè)兩個公司各有數(shù)據(jù)的部分特征,同時 b方擁有數(shù)據(jù)的標記,可以用一個安全的方法對齊數(shù)據(jù)ID,再做縱向聯(lián)邦學(xué)習(xí)。

這通常需要一個合作者Collaborator(有些方式可能不需要),AB兩方的數(shù)據(jù)交換都需要對它加密。此處設(shè)置為:合作者有公鑰和私鑰,兩個機構(gòu)a和b,分別都只有公鑰,沒有私鑰,能通過加密保護自己的數(shù)據(jù)。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

得到同態(tài)加密域的梯度之后,會對梯度加噪聲再送到合作者處,合作者會用自己的私鑰解密,然后把梯度還給它。在各方得到自己的梯度之后,可以進行梯度下降。

Q:若合作者方占主導(dǎo)地位,是否有泄露風險?

這是實際操作中需要注意的問題,比如A方特征占10%,B方特征占90%,這塊你能寫出的方程數(shù)量明顯少于參數(shù)數(shù)量,理論上是推不出來的,但隨著不平衡性的增加,安全性也會下降。

縱向聯(lián)邦學(xué)習(xí)某種程度上,是有信息泄露的,但是從大方向說,它泄露的信息足夠少以至于別人推不出來主要的特征。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

線性回歸是一個典型的算法。在很多模型的應(yīng)用中,當樣本量較大,線性回歸的性能或許不會很好。此處常用的方法之一是隨機森林(random forest)。

  • 隨機森林

Step 1:隨機森林會對原始特征采樣(bootstrapped)。這個步驟是放回式采樣,比如說100個訓(xùn)練樣本,它會每次放回,然后做采樣100個。完成采樣后,每個數(shù)的訓(xùn)練樣本就不一樣了,都是原始訓(xùn)練樣本衍生出來的。這樣主要是為了增加數(shù)的隨機性和多樣性,在樹的集成過程中會產(chǎn)生更好的效果。

Step 2:建每一棵樹時,在每個節(jié)點選擇一個特征的一個隨機子集。舉個例子,這里有30位特征,建樹時隨機選擇五維的特征;建每個節(jié)點時,隨機選的5個特征都不一樣,再從中挑選最好的特征,保了每個節(jié)點的多樣性。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

建樹過程中,可以是深度優(yōu)先,然后走到葉子節(jié)點,直到它滿足一個判據(jù),完成樹的分支搭建,最后再逐個預(yù)測。

  • 聯(lián)邦隨機森林

大致思路是,主動方、被動方各一,主動方有標記,并加密標記和標記的平方,然后發(fā)送給被動方。此處三角號表示對yi、zi進行同態(tài)加密。

加密后,被動方根據(jù)自己每一維的特征,當它的這維特征被整個機制選中的時候,它會針對這個特征做直方圖,然后用直方圖在同態(tài)加密域的yi和zi進行聚合。每一個直方圖會把它劃分成很多區(qū)間,在每個區(qū)間做平均,得到Y(jié)和Z。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

簡單講,主動方傳同態(tài)加密后的y和zi是一個向量,該向量和樣本數(shù)一樣。被動方會對向量做聚合每次會選向量的一個子集,看哪個特征落到區(qū)間上,再對傳遞過來的yi和zi平均進行同態(tài)加密域的求和運算。在隨機森林里,既要選取特征,也要選閾值,通過該閾值下的特征得分算出y的矩陣,矩陣還給主動方。

此處主動方有公鑰和密鑰,被動方只有公鑰無密鑰,所以被動方無法解密y和z,它把Y和Z的矩陣傳給主動方,后者會依所得進行解密,再計算每個特征和每個閾值的得分,擇其得分高者,如此即可完成隨機森林中一棵樹的某節(jié)點構(gòu)建。重復(fù)該過程可構(gòu)建不同的樹和整個隨機森林。

可以看到,主動方得到被動方的數(shù)據(jù),實際只是得到聚合后自己發(fā)送的y和z,所以不知道被動方的特征,也很難推導(dǎo)出;被動方只知道主動方同態(tài)加密運送來的y和z,并不知道更多的信息,整個過程可以保證安全。

何為快速安全的聯(lián)邦學(xué)習(xí)框架?

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

傳統(tǒng)縱向聯(lián)邦學(xué)習(xí)需要用同態(tài)加密進行保護,同態(tài)加密比較低效,我們是否能設(shè)計一個不依賴于同態(tài)加密的聯(lián)邦學(xué)習(xí)框架?

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

設(shè)計快速安全的聯(lián)盟學(xué)習(xí)框架有如下特點:

第一,隱私能得到保護;

第二,利用樹狀通信結(jié)構(gòu),有效提升傳輸效率。利用不同的數(shù)聚合信息;

第三,新框架支持異步計算,能再次提升數(shù)據(jù)安全性。同時整個過程只涉及一些內(nèi)積(此處不確定)計算,包括加噪后內(nèi)積傳遞,所以該框架下不會用到同態(tài)加密,效率更高。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

如圖,模型隱私在傳遞過程中,會傳遞參數(shù)和特征的內(nèi)積,再進行加噪保護,最終有數(shù)據(jù)結(jié)構(gòu)的聚合。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

整個框架的安全性如何?可以從理論上證明,這個算法能有效抵御精確攻擊和近似推理攻擊。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

看主要算法步驟,在第二步可以看到聚合的是內(nèi)積+噪聲,以及聚合噪聲,然后返回到coordinator計算所有參數(shù)和所有內(nèi)積再減去聚合的噪聲,得到?jīng)Q策值,不過此處并不得到模型參數(shù),這也正是模型信息能被保護的原因。

coordinator在此只知道內(nèi)積,不知道參數(shù),所以它也無法推斷各參與方信息。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破


實現(xiàn)過程要確保通信的安全,數(shù)據(jù)在通信過程中不會被聯(lián)邦系統(tǒng)之外的攻擊者所獲取,也需要一個可信賴的第三方來進行調(diào)度。誰做coordinator?可以是監(jiān)管機構(gòu),獨立第三方機構(gòu)等。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

原始數(shù)據(jù)主要通過兩項:1.任一通信節(jié)點接收到的均為加噪聲后的內(nèi)積,由于樹狀結(jié)構(gòu)的差異,隨機數(shù)又無法被移離,內(nèi)積值因此得到保護。2.即使在串通的情況下,多個節(jié)點能移離隨機數(shù),根據(jù)內(nèi)積本身也只能構(gòu)造出方程,也無法通過方程精確推斷所含變量。

有噪聲、有內(nèi)積,方程數(shù)明顯少于變量數(shù),樹機制……這些多重機制都能保證安全性。

剛才所講的邏輯回歸還是線性模型范疇,怎樣把線性模型推廣到非線性模型?這也是關(guān)鍵,推廣的非線性模型精度會大幅提升。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

右邊算法概念大致是:先產(chǎn)生隨機特征,生成隨機數(shù),然后做cos生成隨機特征;在隨機特征域上,再做剛才提到的這種聯(lián)盟學(xué)習(xí)框架,來完成隨機特征的參數(shù)學(xué)習(xí)。

隨機特征這一步引入了非線性函數(shù),它能很好逼近原始核函數(shù)。此處,各參與方會有一部分隨機特征,特征上的模型參數(shù)也保留在各方,不為他人所知。全程將通過噪聲、聚合等方式提升安全性。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

隨機梯度下降法,是首次實現(xiàn)了快速安全的異步并行縱向聯(lián)邦隨機梯度算法,并理論上分析了其收斂率核問題的雙隨機梯度算法,則是首次實現(xiàn)了大規(guī)模、高速、安全的基于核方法的縱向聯(lián)邦學(xué)習(xí)。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

測試性能結(jié)果對比如下。LIBSVM是很多同學(xué)在研究機器學(xué)習(xí)時常用的工具,PP-SVMV是一個隱私保護算法,F(xiàn)DSKL則是我們目前所設(shè)計的算法??梢钥吹接?xùn)練時間的對比。

PP-SVMV涉及核矩陣,因此在大樣本上操作非常慢。FDSKL收斂速度與DSG類似,后者沒有聯(lián)邦學(xué)習(xí)的設(shè)置。FDSKL幾乎達到了不在同態(tài)加密狀態(tài)下的訓(xùn)練速度。

精度結(jié)果對比如下。FDSKL也接近了原始的不用聯(lián)邦學(xué)習(xí)的效果。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

京東數(shù)科的最新工作也將在KDD發(fā)表。

區(qū)塊鏈聯(lián)邦學(xué)習(xí)

區(qū)塊鏈受到很大關(guān)注,數(shù)據(jù)上鏈有透明化、分布式、不能篡改等優(yōu)勢,它是一種不依賴第三方,通過自身分布式節(jié)點,進行網(wǎng)絡(luò)數(shù)據(jù)存儲驗證傳遞和交流的技術(shù)方案。

區(qū)塊鏈的分布式、去中心化特點,和聯(lián)邦也有一些關(guān)系。實際上,聯(lián)邦學(xué)習(xí)在大型的多方參與項目中都有類似機制,也可以考慮采用去中心化。

最簡單的應(yīng)用是,把聯(lián)邦學(xué)習(xí)和區(qū)塊鏈結(jié)合,建立在區(qū)塊鏈上的聯(lián)邦學(xué)習(xí)算法。我們也完成了二者更深層次的融合,包括共識機制等。

我們認為二者的結(jié)合在未來會有越來越多的應(yīng)用。區(qū)塊鏈可以解決數(shù)的存儲,具有不可篡改性,聯(lián)邦學(xué)習(xí)能對數(shù)據(jù)隱私做表保護,其中有不少地方互補。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

互動問答精選

問:聯(lián)邦學(xué)習(xí)可以不加入加密技術(shù),不加密是不是也算對數(shù)據(jù)隱私保護?還是說得進行加密后,才算是各方進行隱私保護?

薄列峰:就像我剛才在橫向聯(lián)邦學(xué)習(xí)中提到的那樣,第一種算法實際上不加密,是用均值進行保護,整個過程中并沒有傳遞數(shù)據(jù)。

不同類型的聯(lián)邦學(xué)習(xí)算法,有不同方向的數(shù)據(jù)保護?,F(xiàn)在的問題是,哪一種對信息的保護級別更高,效率更高?同態(tài)加密是一種方法;差分隱私基本上就是給梯度加噪。這方面,像我們剛才提到的方法,都是不用同態(tài)加密對數(shù)據(jù)保護的聯(lián)邦學(xué)習(xí)算法。

問:聯(lián)盟學(xué)習(xí)在京東有實際的落地場景和業(yè)務(wù)嗎?

薄列峰:有,其實聯(lián)邦學(xué)習(xí)就是在做多方機構(gòu)的落地,比如人臉識別、營銷、風控等場景,京東數(shù)科都有案例。

問:聯(lián)邦學(xué)習(xí)和邊緣計算的區(qū)別是什么?

薄列峰:邊緣計算講的是每個用戶端有自己的計算設(shè)施;聯(lián)邦學(xué)習(xí)講的是對數(shù)據(jù)隱私的保護,同時合作建模。大概念上還是非常不一樣。當然,在做這種分布式聯(lián)盟協(xié)議的時候,它也會用到各自的客戶端,有自己的計算設(shè)備,在這一點上它會和邊緣計算有一些結(jié)合點。

問:怎樣保護在客戶端的運算速度?

薄列峰:客戶端的運算速度,得靠其自身計算資源來進行保護。如果計算資源比較有限,通常它的數(shù)據(jù)也比較有限,參與更少的計算。如果數(shù)據(jù)比較多,它的計算資源也多,如果是多個機構(gòu)合作,這都可以協(xié)調(diào)。

問:實驗中列出來的時間對比,是參與方與第三方之間通信,是內(nèi)網(wǎng)還是外網(wǎng)?

薄列峰:我們在實驗比較時,沒有特別考慮網(wǎng)絡(luò)延遲因素,是相對理想情況下的比較。有網(wǎng)絡(luò)延遲的話,在計算的情況就會增加網(wǎng)絡(luò)延遲。網(wǎng)絡(luò)延遲針對每次具體的setting并不一樣,所以并不容易做標準化的比較。我們比較的是沒有網(wǎng)絡(luò)延遲的情況,具體有網(wǎng)絡(luò)延遲或者有各種情況,可能還是需要在具體設(shè)置里做更好的處理。

問:每個客戶端上的特征異構(gòu)以及標簽異構(gòu)如何理解?可以舉個例子嗎?

薄列峰:這個看是水平聯(lián)邦學(xué)習(xí)還是垂直聯(lián)邦學(xué)習(xí)。

在水平聯(lián)邦學(xué)習(xí)情況下,各個客戶端也有自己的標記。剛才我舉了個例子,比如說image net,每一個有1000類,每一類有1000個樣本,這樣你有100萬個樣本。假設(shè)有100個客戶端,然后每個客戶端有1萬個樣本,它有1萬個樣本標記,然后大家可以用橫向聯(lián)盟學(xué)習(xí)框架,可以有效地利用每個人手上的樣本來建模。最終,每個參與方建造的模型都用了別人的樣本,但是又不會去實際獲取別人的數(shù)據(jù)。

在縱向聯(lián)盟框架下,舉個例子,大機構(gòu)和小機構(gòu)做完用戶對齊,大機構(gòu)作為主動方,小機構(gòu)是被動方,各參與方都可以商討解決。

像橫向聯(lián)盟學(xué)習(xí),在很多時候,參與方其實就是同一個公司的分布在不同的國家的情況,信任度實際上是有保證的。即使說不同的機構(gòu)之間,大家也是有相互的信任度。如果完全沒有信任度,要去做這樣的聯(lián)邦學(xué)習(xí),可能還是比較難的。參與方可能會對整個框架進行攻擊。它的安全性會變得更加復(fù)雜。所以,我們現(xiàn)在還是假設(shè)各參與方是honest,是相對比較協(xié)作的,在實際應(yīng)用中是可以做很多協(xié)調(diào)的。

問:目前在聯(lián)邦學(xué)習(xí)研究遇到的瓶頸有哪些?是否有后續(xù)未來的規(guī)劃?

薄列峰:后續(xù)京東數(shù)科會在聯(lián)邦學(xué)習(xí)上做大量的投入,因為我們認為聯(lián)邦學(xué)習(xí)是整個人工智能,包括整個機器學(xué)習(xí)的基石,它有潛力去改變所有的機器學(xué)習(xí)算法。

我們會做重點布局,研發(fā)越來越多的聯(lián)邦學(xué)習(xí)算法,來進一步提升聯(lián)盟學(xué)習(xí)在各個領(lǐng)域的落地,提升它的有效性和效率,包括和區(qū)塊鏈結(jié)合這種前沿方向。我們既會去提供一些可信度較高的軟件,同時也會去落地,考慮前沿的研究,帶動整個聯(lián)邦學(xué)習(xí)生態(tài)的建設(shè)。

問:是否可以動態(tài)變更合作機構(gòu)的數(shù)量?

薄列峰:合作機構(gòu)的數(shù)量,是可以變化的。在縱向聯(lián)盟學(xué)習(xí)里,相對比較復(fù)雜。它不參與之后,可能有些東西需要重新開始。

但橫向聯(lián)盟學(xué)習(xí),相對比較容易,因為大家都是擁有不同的樣本,假設(shè)有1000個參與方,兩三個不參與,那就少了千分之2,千分之3的樣本,并不影響整個聯(lián)盟學(xué)習(xí)的框架。橫向聯(lián)盟學(xué)習(xí)里,也有一些機制,可以保證參與方突然不參與,還能完成這個模型的訓(xùn)練。

問:聯(lián)邦學(xué)習(xí)可以用于表情識別嗎?

薄列峰:可以。舉個例子,不同機構(gòu)之間有表情識別的不同數(shù)據(jù),大家可以利用彼此的數(shù)據(jù)來增強模型,同時又不想把數(shù)據(jù)給到對方。表情識別更像是一個橫向聯(lián)盟學(xué)習(xí)問題,怎么激勵大公司愿意跟小公司之間共享信息。

我的個人理解,它還是商業(yè)利益的驅(qū)動問題,怎么鼓勵這件事。如果現(xiàn)在聯(lián)邦學(xué)習(xí)的整個框架,只有一個小公司參與,大公司可能缺乏熱情,但是如果有1000個小公司參與,那么這樣以小積多,有更越來越多的可供交換的數(shù)據(jù),大公司參與的意愿就會變強。

問:服務(wù)器端,共享梯度和共享模型參數(shù)有什么區(qū)別?

薄列峰:共享模型參數(shù)是做了幾輪梯度下降,針對共享梯度,它的一大優(yōu)勢是通信代價會低;同時,對整個梯度信息的保護,也會更好。

關(guān)注「 AI金融評論 」,在對話框發(fā)送關(guān)鍵詞“聽課”進群,即可收看課程直播,和往期課程全部回放。

京東數(shù)科首度公開聯(lián)邦學(xué)習(xí)戰(zhàn)略全布局,薄列峰詳解兩大算法突破

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說